简介:Scrapy,Python开发的一个快速,高层次的web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。本课程将带你入门并实践Scrapy框架!
第2章 scrapy框架、mongodb数据库的安装及scrapy实践
本章分为3部分,第一部分:详细介绍了scrapy框架、mongodb数据库的安装,对报错进行了排查及解决。
第二部分:通过scrapy框架架构,讲解了scrapy各个组件的作用,以及scrapy在抓取数据的时候,数据流在框架内是如何进行流动的
第三部分:通过一个抓取实例演示了scrapy在项目中如何配置,如何编写,如何解析及抓取数据,最后将数据存储在mongodb当中。
- 视频: 2-1 scrapy的安装、和安装中遇到的问题 (09:37)
- 视频: 2-2 scrapy的介绍、组件、数据流 (07:57)
- 视频: 2-3 mongodb数据库的安装 (06:04)
- 视频: 2-4 新建scrapy项目 (06:05)
- 视频: 2-5 明确目标 (03:03)
- 视频: 2-6 spider文件的编写(1) (09:48)
- 视频: 2-7 spider文件的编写(2) (22:44)
- 视频: 2-8 保存数据 (09:00)
- 视频: 2-9 ip代理中间件编写 (05:23)
- 视频: 2-10 user-agent中间件的编写 (03:55)
- 视频: 2-11 最后的注意事项 (01:10)